第 37 卷 第 3 期 计算 机 应 用 研究 
录用 定稿 Application Research of Computers Accepted Paper 


面向 汉 维 机 器 翻译 的 双语 关联 度 优化 模型 
潘 一 荣 ">?， 李 晓 !3， 杨 雅 婷 "35 董 瑞 13 


(1. 中 国 科 学 院 新 疆 理化 技术 研究 所 ,乌鲁木齐 830011; 2. 中 国 科学 院 大 学 ,北京 100049; 3. 新 疆 民 族 语音 语言 
信息 处 理 实验 室 ， 乌 鲁 木 齐 830011) 


摘 要 : 针对 汉语 -维吾尔 语 的 统计 机 器 翻译 系统 中 存在 的 语义 无 关 性 问题 ， 提 出 基于 神经 网 络 机 器 翻译 方法 的 双语 
关联 度 优化 模型 。 该 模型 利用 注意 力 机 制 捕获 词 对 齐 信息 ， 引 入 双语 短语 间 的 语义 相关 性 和 内 部 词汇 匹配 度 ， 预 测 
双语 短语 的 生成 概率 将 其 作为 双语 关联 度 ， 以 优化 统计 翻译 模型 中 的 短语 翻译 得 分 。 在 第 十 一 届 全 国 机 器 翻译 研讨 
会 (CWMT 2015) 汉 维 公 开机 器 翻译 数据 集 上 的 实验 结果 表明 ， 与 基线 系统 相 比 ， 在 使 用 较 小 规模 的 训练 数据 和 词汇 
表 的 条 件 下 ， 所 提 方 法 可 以 有 效 地 同时 提高 短语 级 别 和 句子 级 别 的 机 器 翻译 任务 性 能 ， 分 别 获得 最 高 2.49 和 0.59 
的 BLEU 值 提升 。 
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Abstract: Focused on the issue of Semantic independence in Chinese-Uyghur statistical machine translation system, this 
paper proposed a bilingual relatedness optimization model based on neural machine translation method. The model utilized 
the attention mechanism to capture word alignment information as well as introduced bilingual phrase semantic relevance 
and inner word correlation to predict the conditional probability of bilingual phrase pair. And then took the probability as 
bilingual relatedness to optimize the phrase translation scores in statistical translation model. Experimental results on the 
11th China Workshop on Machine Translation (CWMT 2015) Chinese-Uyghur public machine translation datasets Show that 
the proposed approach can achieve obvious improvements both in the phrase-level and the sentence-level machine 
translation tasks, which outperforms the baseline system with a relative small-scale training data and vocabulary. The 
highest BLEU point gains are 2.49 and 0.59 respectively. 
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0 引言 在 缺失 、 宛 余 、 错 误 等 信息 ， 在 评估 统计 翻译 模型 中 的 词汇 

全 化 权重 时 面临 数据 稀疏 性 等 问题 ， 降 低 其 准确 性 ， 进 而 影响 
在 基于 短语 的 统计 机 器 翻译 (statistical machine 机 器 翻译 质量 。 针 对 上 述 问题 ， 本 文 应 用 神经 网 络 机 器 翻译 
translation, SMT) [1 系统 中 ， 翻 译 模型 对 从 平行 语料库 中 抽取 Ceural machine translation, NMT) 方 法 ， 并 基于 注意 力 机 制 捕 
的 双语 短语 进行 建 模 ， 主 要 包括 短语 翻译 概率 、 词 汇 化 权重 获 词 对 齐 信息 ， 引 入 双语 短语 的 语义 相关 性 和 内 部 词汇 匹配 
等 参数 ， 这 些 参数 作为 特征 函数 并 结合 对 数 线性 方法 ， 以 此 度 ， 预 测 双语 短语 的 关联 度 得 分 ， 以 优化 统计 翻译 模型 的 短 


训练 机 器 翻译 系统 ， 从 而 获取 最 优 权重 分 布 ， 在 解码 时 以 搜 。 语 翻译 概率 ， 并 在 实验 中 证 明了 其 有 效 性 。 

索 最 有 可 能 的 翻译 选项 ， 实 现 双语 转换 过 程 。 虽 然 各 种 机 器 1 ”相关 工作 

翻译 方法 在 近年 来 取得 了 巨大 进步 ， 机 器 翻译 质量 也 在 不 断 

提高 ， 但 是 译文 结果 中 存在 的 词汇 翻译 错误 、 语 义 内 容 无 关 维吾尔 语 属于 小 语种 ， 且 词 形 结构 复杂 ， 目 前 针对 汉语 - 
等 问题 仍 有 待 提 升 。 维吾尔 语 的 统计 机 器 翻译 方法 主要 集中 在 两 方面 : 一 方面 是 


SMT 基于 统计 学 方法 构建 短语 翻译 得 分 , 仅 考 虑 双语 短 。 ”平行 语料库 构建 ， 例 如 彭 飞 等 人 中 利用 汉 维 双语 语句 的 空间 
语 的 共 现 频 率 ， 在 一 定 程度 上 忽略 语义 相关 性 ;同时 由 于 词 。” 向 量 表示 ， 通 过 源 语句 与 目标 语句 间 的 相似 度 进行 平行 语 料 
对 齐 结果 来 源 于 统计 对 齐 模型 趾 ， 并 使 用 最 大 似 然 估计 由 取 ， 以 保证 平行 句 对 在 语义 内 容 上 的 相关 性 ， 男 一 方面 是 
(maximum likelihood estimation, MLE) 方 法 进行 学 习 ， 所 以 存 ，” 维 可 尔 语 语法 以 及 形态 分 析 ， 例 如 米 莉 万 等 人 饭 将 维 语词 汇 
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的 词 干 和 词 绥 作 为 基本 翻译 单位 ， 提 出 基于 有 向 图 的 维吾尔 


语词 干 -词缀 语言 模型 , 利用 维 召 尔 语 的 黏着 语 特性 进行 机 器 


最 优 候选 短语 翻译 。 
统计 翻译 模型 主要 对 短语 翻译 概率 和 词汇 化 权重 进行 建 


翻译 实验 。 此 外 ， 潘 一 荣 等 人 外 利用 深度 学 习 技 术 对 汉 维 短 模 。 短 语 翻译 概率 由 统计 方法 进行 计算 ， 如 式 (3) 所 示 。 
语 的 语义 特征 进行 分 析 ， 通 过 循环 神经 网 络 (recurrent neural count(F,€) 
networks，RNN) 学 习 调 序 信息 并 重 构 汉 维 调 序 模型 ， 赋 予 调 a ye G) 


序 规则 更 加 合理 的 调 序 方向 以 及 概率 分 布 。 上 述 方法 重点 在 
于 对 单 语 的 语言 特性 ( 维 语词 干 、 词 级 、 形 态 等 ) 以 及 双语 儿 
部 对 应 关系 ( 汉 维 平行 句 对 、 ne 缺乏 关 
于 双语 对 齐 短语 的 语义 相关 性 和 内 部 词汇 匹配 度 的 研究 和 分 


其 中 : 了 和 = 分 别 表 示 源 语言 和 目标 语言 的 对 齐 短语 ， 
count(f,z) 表示 两 者 在 较 大 规模 平行 句 对 中 的 共 现 频率 。 翻译 


析 ， 故 汉 维 统计 翻译 模型 中 存在 语义 无 关 性 问题 。 由 于 短语 
翻译 概率 分 布 值 并 不 合理 ， 所 以 无 法 正确 评估 双语 短语 在 语 
义 及 词汇 上 的 关联 度 ,在 统计 机 器 翻译 研究 中 仍 有 提升 空间 。 
随 着 深度 学 习 技 术 在 SMT 领域 中 的 应 用 和 发 展 ， 许 多 
研究 工作 利用 神经 网 络 方法 改进 统计 翻译 模型 ， 并 取得 一 定 
的 效果 。Schwenk 中 提出 基于 短语 的 连续 空间 翻译 模型 ， 该 
人 利用 短语 的 向 量 表示 来 预测 短语 的 翻译 概率 ; Son 等 人 
中 提出 分 层 结构 的 神经 网 络 翻 译 模 型 ， 对 翻译 单元 的 连续 空 
sat er ein Zou 等 人 由 提出 基于 
语 的 词 向 量 表示 模型 ， 对 词汇 间 的 语义 相似 度 进 行 计算 ， 
ee 分 作为 额外 特征 加 入 翻译 系统 的 训练 过 程 中 ; Cho 
等 人 中 提出 基于 编码 器 一 解码 器 的 短语 表示 模型 ， 该 模型 利 
用 RNN 进行 训练 以 最 大 化 对 齐 短语 的 条 件 概 率 ， 并 评估 翻 
译 模型 中 双语 短语 的 生成 概率 得 分 。 
本 文 参考 (Cho et al., 2014) 的 工作 ， 对 统计 翻译 模型 中 的 
短语 翻译 概率 进行 重新 评估 ， 提 出 基于 神经 网 络 方法 的 双语 
关联 度 优 化 模型 (neural-based bilingual relatedness 
optimization model NBROM)。 不 同 于 上 述 研 究 思 路 ,首先 本 
模型 基于 (Bahdanau et al., 2014) 框 架 090， 利 用 注意 力 机 制 捕 
获 双 语 短语 间 的 词 对 齐 信 息 ， 引 入 短语 语义 相关 性 和 内 部 词 
汇 匹 配 度 ， 优 化 短语 翻译 概率 ; 其 次 在 训练 该 模型 时 ， 对 于 
维吾尔 语 中 的 未 登录 词 (out-of-vocabulary OOV) 问 题 ， 本 文 
使 用 三 种 模型 进行 OOV 词汇 的 生成 概率 预测 ， 分 别 为 Unk 
模型 、MultiClass 模型 和 字 节 对 编码 (byte pair encoding, BPE) 


0 


模型 使 用 该 值 作为 此 对 齐 短 语 的 翻译 概率 。 词 汇 化 权重 得 分 
以 词 对 齐 结 果 为 基准 ,将 源 语言 和 目标 语言 短语 划分 为 词汇 
用 于 评估 双语 词汇 间 的 匹配 程度 ， 如 式 (4) 所 示 。 

Iolo) Trea) 的 


Vv(i,Y)e 


count ( f;,2,;) 


> ‘count(f; ,2;) 
其 中 : count(fj,8) 表 示 词 对 (fi,2) 在 大 规模 平行 句 对 中 的 共 现 


频率 。 对 于 目标 端 短 语 z， 翻 译 模型 对 其 中 的 全 部 词汇 按 序 
进行 遍历 并 连 乘 概率 值 ， 将 此 值 作为 词汇 化 权重 得 分 。 词 对 
齐 由 GIZA++03 工 具 进行 获取 ， 该 工具 基于 EM 算法 ， 用 于 
评估 词 对 ed 认为 概率 最 大 值 对 应 的 双语 词汇 
在 平行 语 料 中 对 齐 。 由 于 上 述 两 者 基于 统计 方法 获取 ， 翻 译 
本 型 中 在 在 语义 无 关 性 问 有 

汉 维 双语 对 齐 短 语 实 例 (维吾尔 语 从 右 至 左 书写 ) 如 图 
1 所 示 。 对 于 原 语言 短语 【为 人 民 群众 服务 】 统计 翻译 
模型 保留 从 训练 语 料 抽取 的 对 齐 目标 短语 【 3 Heb 
as) 太 】)， 并 且 赋 予 该 对 齐 短语 相应 的 词 对 齐 信 息 。 由 此 可 
以 看 出 , 源 短语 中 的 词汇 [服务 ] 对 应 于 两 个 目标 词汇 [和 $】 
和 【4 六 】 然 而 只 有 【天 洽 】 符 合 语义 对 齐 要求 【 了 发 活 】 
对 齐 信息 存在 错误 ， 同 时 词汇 【为 】 和 【人 民 】 缺 少 对 齐 目 
标 词 汇 。 由 于 词汇 化 权重 得 分 为 对 齐 词汇 的 翻译 概率 乘积 ， 
若 词 对 齐 信息 存在 缺失 、 见 余 、 错 误 等 问题 ， 词 汇 化 权重 将 


(eb;)= 


模型 50， 对 不 同 的 OOV 词汇 赋予 相应 权重 。 在 第 十 一 届 全 
国 机 器 翻译 下 ee 在 使 用 较 
小 规模 的 训练 数据 和 词汇 表 的 条 件 下 ， 与 基线 系统 相 比 ， 本 
文 提出 的 方法 可 以 同时 提 在 级 别 和 句子 级 别 的 机 器 翻译 
任务 性 能 ， 分 别 获 得 最 高 2.49 和 0.59 的 BLEU 值 提升 ， 验 
证 了 本 方法 的 有 效 性 。 


2 ”统计 机 器 翻译 系统 


给 定 一 个 源 语言 语句 f，SMT 的 目标 是 找 出 相应 的 最 优 
目 标语 计 言 翻译 结果 e， 使 得 条 件 概率 最 大 化 ， 如 式 (1) 所 示 。 


plef )%p(fle)p(e) (1) 


~ 


中 : p( 


fle) 为 翻译 模型 ，p(e) 为 语言 模型 。 一 般 来 说 , SMT 


将 多 种 特征 函数 与 其 对 应 权重 共同 加 入 至 对 数 线性 框架 中 ， 
并 使 用 log p(elf) 进行 建 模 ， 如 式 (2) 所 示 。 
logp(elf )¥ logp(fle)+logp(e) 2) 


“Df (12) +1logZ(e) 


其 中 : 大和 分 别 为 第 n 个 特征 函数 及 相应 权重 值 ，Z(e) 为 
归 一 化 常数 项 。 基 于 该 框架 ， 翻 译 模型 因子 化 为 特征 函数 的 
加 权 总 和 。SMT 通过 在 开发 集 上 优化 权重 参数 w， 最 大 化 翻 
译 性 能 指标 BLEU 值 023, 并 使 用 这 些 参数 在 解码 过 程 中 搜索 


无 法 正确 评估 双语 短语 中 词汇 间 的 匹配 程度 ， 从 而 降低 统计 
翻译 模型 准确 性 以 及 SMT 系统 性 能 


wei renmin gunzhong Aw 
| 
| 为 | | 人民 | | 群众 | 服务 | 
Chas Qi | 
serve for the masses 


图 1 汉 维 双语 对 齐 短 语 实 例 
Fig.1 Example of Chinese-Uyghur bilingual aligned phrase 


3 ”双语 关联 度 优化 模型 


3.1 模型 概述 
基于 深度 学 习 技 术 和 NMT 方法 ， 本 文中 模型 首先 使 用 
编码 器 将 源 语言 短语 编码 为 固定 维度 的 特征 向 量 ;， 然后 使 用 
解码 器 将 该 向 量 解 码 为 不 定 长 度 的 目标 短语 ， 并 引入 注意 力 
机 制 ， 用 于 捕获 双语 短语 中 的 语义 信息 和 对 齐 词汇 ， 以 弥补 
统计 翻译 模型 中 存在 的 语义 无 关 性 和 词 对 齐 错误 等 不 足 。 
编码 器 是 一 个 双向 循环 神经 网 络 (bidirectional recurrent 
neural network，BiRNN) 0 ， 用 于 双向 处 理 输入 序列 
x=(%,2.,%)， 分 别 更 新 正 向 隐藏 状态 (Dy.… ROO)D) 以 及 道 
向 隐藏 状态 (Oj.…, A 中 DD)， 如 式 (5)(6) 所 示 。 
hk=f( hk-1,xk) ”xk 由 x1 到 xt 正 序 进行 遍历 (5) 
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Ok=f( hk-1,xk) ”xk 由 xt 到 xl 道 序 进行 遍历 (6) 
其 中 : 了 为 非 线 性 激活 函数 tanh。 中 的 每 个 单词 
五 ， 使 用 应 = [XR，h(Q 〇 x 进行 标注 ， 引 入 其 周围 词汇 
信息 。 
解码 器 是 一 个 单 层 RNN, 给 定 前 一 时 刻 的 预测 单词 y,、 
前 时 刻 的 RNN 隐藏 状态 和 上 下 文 向 量 “ ,预测 当前 时 刻 
的 输出 单词 yy， 其 中 3 和 ss; 都 依赖 于 yt 和 c， 如 式 (7) 所 示 。 
pOY; | yi Vi) = 8 (Yi,,2;) (7) 

$i =f (si1,Yi1,2;) 


革 
Ci 三 > ci 
问 | 


其 中 : 8 为 非 线性 激活 函数 sofirmax; c 为 方 的 加 权 总 和 ; ww 
为 对 齐 权 重 ， 用 于 评估 对 齐 模 型 @; 中 的 单词 与 y 间 的 匹配 
程度 ， 如 式 (8) 所 示 。 


Ik 


_ exp(e) 
” 忌 ep(o 人 


@; =a(si, nh;) 


a(si1, hy)=tanh(W,si +U,h,) 


其 中 : W, 和 UU, 是 神经 网 络 参数 。 通 过 训练 编码 器 和 解码 器 ， 
以 最 大 化 对 数 条 件 概率 分 值 ， 预 测 最 有 可 能 的 目标 短语 ， 如 
式 (9) 所 示 。 


1 N 
Mmaxg Ns poly |X,) 9) 


其 中 : 0 表示 模型 参数 集合 ,，( 交 ，y ) 为 训练 数据 集合 pa 
齐 短语 。 以 汉 维 双语 短语 生成 过 程 为 例 ， 本 文 模型 
2 所 示 。 该 模型 将 源 语言 短语 映射 为 连续 空间 向 量 表示 ，| 
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国 
国 


于 获取 其 中 的 语义 信息 ， 同 时 利用 注意 力 机 制 ， 对 源 短语 中 


(Bahda 
以 无 法 有 效 地 预测 频率 较 
译 质量 。 针 对 上 述 问 题 ， 
OOV 词汇 进行 生成 概率 预测 , 并 且 在 实验 中 验证 其 
效 性 和 局 限 性 。 ee 
j[UNKJ 符 号 进行 标注 ， 
标语 言词 汇 表 大 小 为 30k-50k。 
3.4.1 Unk 模型 


统 的 翻 


Ar 1 


符号 进行 标注 ， 这 是 一 种 非常 普遍 的 未 登录 词 处 于 
NMT 系统 训练 时 ， 所 有 OOYV 被 赋予 相同 的 权重 。 
3.4.2 MultiClass 模型 
参考 (Jean et al., 2015) 的 ) 


进行 词汇 类 别 分 类 ， 同 


中 : “为 预测 短语 


3.3 双语 关联 度 得 分 
ee 
新 评估 ， 考虑 双语 


中 第 上 个 词汇 


其 中 : 书 为 目标 短语 中 和 
汇 个 数 。 
3.4 未 登录 词 处 理 策略 
于 在 训练 NMT 系统 时 ， 考 虑 到 时 间 和 空间 复杂 度 
标 词汇 ，K 取 值 一 般 在 


只 保留 频率 较 高 的 前 K 个 
nau et al., 2015)~80k (Sutskever et al., 2014) 上 
氏 的 稀有 词汇 ， 从 而 降低 NMT 系 
本 文 使 用 以 下 三 种 模型 
自 的 有 
的 OOV 词汇 ， 本 文 统一 使 
源 语言 词汇 表 大 小 为 50k， 
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:7 为 e 中 包含 的 词 ; 
语 的 语义 相关 性 和 内 部 词汇 匹 本 预 


测 合理 0 给 定 源 短语 f ， 预 涡 
5z=(a.2.5) 的 关联 度 得 分 ， 如 式 (11) 所 示 。 
pro(ef)= Plog p(o 2,¥) 


=> log 8 (81,3,2,) 


名 t 个 词汇 ; 了 为 目标 短语 = 包含 


的 词 


参考 (Sutskever et al., 2014; Cho et al., 2014; Bahdanau et 


的 各 个 词汇 赋予 不 同 的 权重 ， 以 表征 该 词汇 的 重要 性 。 利 | 
比 模型 ， 可 以 在 给 定 源 语言 短语 的 条 件 下 ， 预 测 最 有 可 能 与 
对 应 的 目标 语言 短语 ;并 可 以 预测 双语 短语 的 关联 度 得 分 ， 
重新 评估 统计 翻译 模型 中 的 词汇 化 权重 ， 同 时 提高 短语 级 别 
和 句子 级 别 的 机 器 翻译 质量 ， 有 具体 如 下 文 所 述 。 


activity Spirit 
Lily i 


主题 L 精神 
Zhuti huodong jingshen 
图 2 汉 维 神经 网 络 双语 关联 度 优化 模型 框架 
Fig.2 Framework of Chinese-Uyghur neural-based bilingual 


relatedness optimization model 
3.2 目标 短语 预测 
利用 上 述 模型 ， 可 在 给 定 源 语言 短语 s 的 条 件 下 ， 预 测 
目标 短语 e* ， 使 得 式 (9) 的 得 分 最 大 化 ， 如 式 (10) 所 示 。 


e” =argmaxlog p(els) (10) 


六 
=argmax > log p(els) 
t=] 


和 
=argmax ,log g (e.1,3,,2,) 
t=] 


对 于 各 个 未 登录 词 ， 


别 识 另 


词汇 进行 处 理 , 使 用 维 
法 ， 对 低频 词汇 进行 切 分 ，: 
数 ， 有 效 解决 数据 稀疏 问题 


subword-nmt ( 
汇 进行 处 理 
行 形态 切 分 。 


语 料 ， 共 包含 11 万 个 
汇 以 及 104 992 个 维 
据 ， 分 别 


al., 2015) 的 工作 , 该 模型 对 所 有 的 OOV 词汇 统一 使 


用 [UNK] 


策略 ， 在 
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| 作为 分 类 问题 进行 
类 ， 具 体 实现 在 本 文 4.2 节 
3.4.3 BPE 模型 

参考 (Sennrich et al., 2015) 的 工 


[的 生成 概率 


因而 降低 训练 复杂 
7 实验， 分 别 为 数字 [NUMI]、 


吾 尔 语 子 词 贞 


https://github.com/rsennrich/subword-nmt) 对 OOYV 词 


实验 


4.1 实验 设置 
本 文 在 汉语 -维吾尔 语 2 
用 开源 翻译 平台 Moses (http://www.statmt.org/moses/) 作为 大 
系统 。 训 练 数据 来 源 于 2015 稀 


， 并 参考 哈里 旦 木 等 "4 的 工作 ， 


该 模型 对 所 有 的 OOV 
一 类 的 OOV 词汇 具有 相同 区 
该 模型 在 预测 该 词 》 
PG,1ya,*) 时 ， 将 其 分 解 为 类 别 概率 得 分 plc1y,Y) 与 类 别 内 
部 词汇 概率 得 分 p(y,1c,3,*) 的 乘积 ， 
本 文 使 用 四 种 词汇 类 别 进行 
[SYM]、 命 名 实体 [NOUN] 和 其 他 词汇 [UNK]， 同 时 将 词汇 
训练 分 类 器 对 OOV 进行 
羊 述 。 


作 ， 该 模型 对 所 有 的 OOV 
和 元 (subword units) 表 示 方 


此 增加 稀疏 词 中 子 词 的 共 现 次 


。 本 文 使 用 开源 切 分 工 


本 


不 对 维吾尔 语 进 


计 机 器 翻译 系统 中 进行 实验 , 使 
线 


FE CWMT 公开 的 汉 维 


语词 


包含 1 095 个 平行 句 对 和 1 000 个 了 


行 双语 句 对 ， 共 有 64 851 个 


汇 ;开发 集 和 测试 集 采 用 同 领 


斯 坦 福 大 


使 用 SRILMD3 在 训练 数据 上 进行 5-gram 语言 模型 训练 
词 颖 


研 发 的 分 


[7 /一 下 
FF 行 句 对 。 


f 闻 领域 
中 文 词 
域 数 
本 文 


市 
人 


十 SMT 系统 进行 调 参 ， 使 
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(https://nlp.stanford.edu/software/segmenter.html ) 对 汉语 语句 进行 分 
词 ; 使 用 grow-diag-final-and 对 齐 策 
取出 4934 572 个 双语 对 齐 短语 ; 使 用 
大 小 写 不 敏感 的 BLEU 值 作为 


名， 设置 短语 抽取 最 大 


MERTHY 


从 SMT 系统 中 于 


; 最 后 ， 对 于 


对 于 词汇 类 别 分 类 器 ， 本 文 使 


I 络 参数 用 于 最 小 化 损失 函 
四 种 词类 的 对 应 概 
后 的 参数 预测 OOV 的 词 


完成 训练 时 ， 使 用 优 


; 解码 器 包含 100 个 隐藏 
经 网 络 结构 器， 采用 分 批 SGD 算 ; 


由 取 的 双语 对 齐 短 语 进 行 模型 
匹配 度 ， 本 文 优先 保留 
语 翻译 概率 最 高 的 前 100 万 个 双语 短语 ; 然后 ， 从 中 选择 
标 短 语 中 各 个 词汇 在 源 短 语 中 至 少 含有 一 个 对 齐 词汇 的 双 
语 短语 ， 在 一 定 程度 上 保 记 司 
一 个 源 语言 短语 ， 保 留 较 长 的 目标 短语 ， 以 提高 模型 对 于 长 
短语 的 适应 性 。 经 过 以 上 步骤 ， 


筛选 出 约 40 万 个 对 齐 短语 ， 


用 RNN 网 络 结构 ， 设 置 
层 单元 个 数 分 别 为 256-128-64-16-4， 训 练 轮 数 
为 200， 初 始 学 习 率 为 0.1， 使 用 随机 梯度 下 降 (stochastic 
gradient descent，SGD) 算 法 更 新 


向 RNN 组 成 , 各 包含 100 
元， 使 用 带 有 maxout 


结合 学 习 率 


词汇 表 的 条 件 下 ， 有 效 地 提高 汉语 到 维 语 的 机 器 翻译 任务 性 
能 .BPE 模型 在 机 器 翻译 任务 中 的 实验 性 能 对 比如 表 2 所 示 。 
表 2 BPE 模型 在 机 器 翻译 任务 中 的 实验 性 能 对 比 


Table 2 ” Experimental performance of BPE model in machine 


translation task 


训练 数据 规模 词汇 表 大 小 BLEU 值 
50k 30k 38.75 
100k 40k 38.62 
200k 50K 38.60 


本 文 同样 对 NBROM 结合 BPE 模型 的 实验 性 能 进行 了 对 
比 , 并 设置 训练 数据 规模 与 词汇 表 大 小 成 正比 。 由 表 2 可 知 ， 
BPE 模型 在 训练 数据 和 词汇 表 规 模 较 小 的 实验 中 性 能 最 优 ， 
随 着 训练 数据 和 词汇 表 规 模 的 扩大 ， 实 验 性 能 降低 ， 造 成 
此 结果 的 原因 可 能 在 于 : 维吾尔 语 的 形态 信息 复杂 并 且 词 汇 
量 巨大 , 在 应 用 BPE 模型 时 ， 需 要 将 低频 词汇 切 分 为 字 词 形 
式 加 入 至 目标 词汇 表 中 ， 在 一 定 程度 上 影响 维 语 语义 信息 的 
完整 性 ， 同 时 增加 模型 训练 的 复杂 度 ， 在 预测 OOV 词汇 的 
生成 概率 时 面临 数据 稀疏 性 问题 ， 因 而 减弱 机 器 翻译 任务 的 


4.4 目标 语言 短语 预测 

本 文 对 统计 机 器 翻译 系统 和 NBROM 在 短语 级 的 机 器 翻 
译 任务 中 的 实验 性 能 进行 对 比 ， 测 试 数 据 为 本 文 模型 训练 数 
据 中 随机 抽取 的 2 000 个 双语 对 齐 短 语 ， 并 对 测试 集中 的 维 
语词 汇 量 和 短语 中 的 平均 词 数 进行 统计 ， 有 具体 信息 如 表 3 所 


更 新 方法 Adadelta20 训 练 本 模型 ， 设 
1 练 轮 数 为 S00。 当 训练 完成 


| 练 数据 规模 为 
有 优化 后 的 网 


EF 估 双语 短语 的 关联 度 
标 短语 。 参 考 (Schwenk, 2012) 中 的 思路 
EE 全 部 替换 为 双语 关联 


， 同 时 预测 最 有 可 能 的 有 
， 本 文 将 统计 翻译 模 


本 文 对 统计 机 器 秋 
译 任务 中 的 实验 性 能 进行 对 比 ， 同 H 
训练 数据 规模 和 目标 词 ; 


上 译 系 统 和 NBROM 在 句子 级 的 机 器 翻 
对 考虑 OOV 处 理 策 略 、 
LL 体 结果 如 表 1 所 示 。 


Experimental performance of machine translation tasks 


训练 数据 规模 词汇 表 大 小 


BLEU 值 


NBROM + MultiClass 


38.16 


38.65 (+0.49) 
38.68 (+0.52) 
38.75 (+0.59) 


表 1 中 数据 可 知 ,使 


I 词汇 表 大 小 为 30k 的 


模型 获得 了 本 实验 


j NBROM 重新 评估 统计 翻译 模 
明显 地 提升 ， 在 训练 数 
FE 下 ，BLEU 分 值 提 
kt 中 NBROM 结合 BPE 
BLEU 值 38.75; 该 方法 将 所 有 


的 生成 概率 ， 相 
提升 最 明显 。 对 于 NBROM 相 结 


: Unk 模型 对 于 所 有 统一 的 符号 


; 而 MultiClass 模型 对 词 


攻 式 ， 在 一 定 程度 上 增加 了 稀 玻 
[中 字 词 的 共 现 次 数 ， 减 轻 OOV 词汇 对 于 实验 性 能 的 影 
J 以 有 效 预 测 未 登录 词 》 
.59， 在 本 实验 中 必 
合 的 Unk 模型 和 MultiClass 模型 ， 后 者 稍 


于 基线 系统 


的 主要 原 


不 。 


表 3 短语 生成 任务 性 能 对 比 


Table 3 Experimental performance of phrase generation task 


模型 词汇 量 “平均 词 数 BLEU 值 
Moses 91.27 
NBROM + Unk 93.56 (+2.29) 
1,517 4.86 
NBROM + MultiClass 93.76 (+2.49) 
NBROM + BPE 92.13 (+0.86) 


表 4 维 语 短语 预测 实例 
Table 4 Example of Uyghur phrase prediction 


源 语言 短语 统计 机 器 翻译 系统 Score NBROM+ MultiClass Rescore 
LS Aa 4 各 GS Aa bs 
， 0.04556 网 
金融 等 领域 和 A 0.79450 
et 0.01479 J 
4 加 入 l 领域 ”等 。 金融 


oad Le 0.16721 03 Ao a 


教育 、 文化 . 
a Eh gb cu La 0.83613 
和 6 9 da 0.0; 
和 文化 、 教 育 
533 六 Os 
议 LL 3 | vi 机 
Re GS oF 
活动 今天 启 G2 3 加 Casa 答 口 六 只 i 
4.8e-11 un 0.84382 
动 。 aa 3 


GL RE 00819 a 
COLD 其 号 Co ooolol 
表 3 中 数据 可 知 ， 使 用 NBROM 预测 源 短 语 对 应 的 目 
标 短语 ， 在 准确 性 上 明显 高 于 统计 机 器 翻译 系统 ， 证 明了 该 
方法 在 短语 级 机 器 翻译 任务 中 的 有 效 性 。 对 于 上 述 三 种 OOV 


二 < 


I 进行 分 类 ， 在 预测 时 充分 考 


I 词类 信息 ， 因 而 可 以 


词汇 处 理 策略 ，MnultiClass 模型 在 本 实验 的 性 能 最 好 ， 相 比 
于 基线 系统 ，BLEU 分 值 提升 2.49。NBROM 结合 BPE 模型 
的 实验 效果 并 不 明显 ， 造 成 此 结果 的 原因 可 能 是 : 使 用 BPE 


提高 OOV 词 ; 


。 实 验 结果 表明 ， 基 于 


双语 短语 的 语义 相关 性 和 内 部 词汇 匹 再 


度 等 相关 信息 ， 本 文 


的 双语 关联 度 优化 模型 可 以 在 但 


小 规模 的 训练 数据 和 


模型 训练 NBROM 时 ， 需 要 对 维 语词 汇 进 行 切 分 处 理 ， 故 在 
生成 目标 词汇 时 引入 过 多 的 字 词 形式 ， 降 低 预 测 短语 中 词汇 
的 准确 性 以 及 完整 性 。 此 外 ，MultiClass 模型 使 用 词汇 类 别 


录用 定稿 


进行 训练 ， 相 比 于 Unk 模型 ， 可 进一步 提高 OOV 词汇 预测 
的 准确 率 。 
如 上 文中 所 述 ，NBROM 结合 MultiClass 模型 可 以 预测 
最 有 可 能 的 对 齐 目标 短语 ， 使 之 与 源 短语 的 匹配 度 最 高 ;并 
可 以 重新 评估 词汇 化 权重 ， 赋 予 双 语 短语 更 加 合理 的 关联 度 
得 分 。 统计 机 器 翻译 系统 与 NBROM 的 目标 语言 短语 预测 实 
例如 表 4 所 示 。 其 中 Score 表示 统计 翻译 模型 中 的 词汇 化 权 
重 ，Rescore 表示 NBROM 的 双语 关联 度 得 分 。 统 计 机 器 翻 
译 系 统 中 相同 的 源 语言 短语 对 应 多 个 目标 短语 ， 并 保留 相应 
的 词汇 化 权重 得 分 。 由 表 4 中 数据 可 知 ， 在 语义 内 容 以 及 词 
汇 匹 配 度 都 较 高 的 条 件 下 ， 统 计 机 器 翻译 系统 中 的 词汇 化 权 
EE 分 值 较 小 ， 无 法 正确 评估 双语 短语 的 对 齐 概率 ， 与 实际 情 
符 ， 因 而 降低 翻译 模型 质量 。 与 之 相 比 ， 由 于 NBROM 
注意 力 机 制 ， 可 以 有 效 地 捕获 双语 短语 中 的 对 齐 词汇 ， 
而 可 以 合理 地 预测 具有 语义 相关 性 和 词汇 匹配 度 的 目标 短 
语 ， 同 时 赋予 其 相应 的 双语 关联 度 得 分 ， 提 高 模型 在 短语 级 
别 的 机 器 翻译 任务 中 的 实验 性 能 。 


5 ”结束 语 


针对 汉 维 统计 机 器 翻译 系统 中 存在 的 语义 无 关 性 问题 ， 
本 文 提出 了 基于 神经 网 络 机 器 翻译 方法 的 双语 关联 度 优化 模 
型 ， 该 模型 引入 注意 力 机 制 捕获 双语 短语 的 词 对 齐 信息 ， 
基于 语义 相关 性 和 内 部 词汇 匹配 度 重新 评估 双语 短语 的 关联 
度 得 分 ， 以 此 优化 统计 翻译 模型 中 的 词汇 化 权重 ， 同 时 给 定 
源 短语 ， 该 模型 可 以 预测 匹配 度 最 高 的 目标 短语 。 实 验 结果 
表明 ， 在 使 用 较 小 规模 的 训练 数据 和 词汇 表 的 条 件 下 ， 本 文 
中 提出 的 方法 可 以 有 效 地 提高 短语 级 别 和 句子 级 别 的 机 器 翻 
译 任务 性 能 。 
延续 本 文 的 研究 方向 , 在 后 续 工 作 中 有 以 下 思路 : 第 一 ， 


Im 


> 


六 志 学 
办 
全 


于 词 对 齐 结果 中 存在 缺失 、 元 余 、 错 误 等 问题 ， 训 练 数 和 
规模 和 词汇 表 大 小 会 较 大 程度 上 地 影响 模型 训练 效果 ， 因 此 
考虑 直接 对 词 对齐 结 果 进 行 优化 ， 第 二 ， 本 文 只 在 汉 维 机 器 
翻译 任务 中 进行 了 数据 分 析 和 建 模 ， 对 于 其 他 语言 对 的 翻译 
任务 性 能 可 能 存在 差异 性 ， 因 此 会 在 其 他 语言 对 上 进行 相关 


让 呈 


AS 


实验 ， 提 高 模型 的 泛 化 能 力 ; 第 三 ， 对 维 语 的 词 干 词 级 进行 
切 分 ， 以 学 习 更 多 的 词汇 形态 信息 。 
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